16 Bayesian Inference

Draw the region like in Lecture 16, we have

P (U_{1} + U_{2} \leq 1) = \frac{1}{2}

.
Draw a 3-d region, we have

P (U_{1} + U_{2} + U_{3} \leq 1) = \frac{1}{6}

.
Consider the following polytope in

R^{n}

Δ_{n} = {(u_{1}, \dots, u_{n}) \in R^{n} | 0 \leq u_{i} \leq 1, u_{1} + \dots + u_{n} \leq 1} .

Then

Vol (Δ_{n}) = \frac{1}{n!}

. (We can use multi-dimensional integration & induction to show it.) So

P (U_{1} + \dots + U_{n} \leq 1) = \frac{1}{n!}

.
Define

E_{k}

as the event of

U_{1} + \dots + U_{k} \leq 1

. Naturally

E_{n} \subset E_{n - 1}

. Then

\begin{aligned} P (N = n, n \geq 2) = & P (E_{n - 1} \cap E_{n}^{c}) = P (E_{n - 1}) - P (E_{n - 1} \cap E_{n}) \\ = & \frac{1}{(n - 1)!} - \frac{1}{n!} = \frac{n - 1}{n!} . \end{aligned}

Thus

E [N] = \sum_{n = 2}^{\infty} n P (N = n) = \sum_{n = 2}^{\infty} \frac{1}{(n - 2)!} = e .

Can also see this note from Statistics Theory on Bayes estimation.

1 Bayesian Inference

$X$ : observed data. $Θ$ : unknown parameter(s). All continuous random variables.
Law of Total Probability: $f_{X} (x) = \int_{- \infty}^{+ \infty} f_{x | Θ = θ} (x) f_{Θ} (θ) d θ .$
Bayes Rule for Continuous RV: $f_{Θ | X = x} (θ) = \frac{f_{X | Θ = θ} (x) \cdot f_{Θ} (θ)}{\int_{- \infty}^{+ \infty} f_{X | Θ = θ} (x) f_{Θ} (θ) d θ} .$
If $X$ or $Θ$ is discrete, use p.m.f instead of p.d.f.

Example (Binomial)

$(X | Θ = θ) \sim Binomial (n, θ)$ . $Θ \sim Beta (α, β)$ , $(Θ | X = x) \sim Beta (α + x, β + n - x)$ . Then $P (X = x | Θ = θ) = (\binom{n}{x}) θ^{x} (1 - θ)^{n - x} 1 {x \in {0, 1, \dots, n}} .$
Then $f_{Θ | X = x} (θ) \propto P (X = x | Θ = θ) f_{Θ} (θ) .$ If $f_{Θ} (θ) \propto θ^{α - 1} (1 - θ)^{β - 1}$ , then $f_{Θ | X = x} (θ) \propto θ^{α + x - 1} (1 - θ)^{β + n - x - 1} .$

For $d$ dimensions, $\vec{X} = (X_{1}, \dots, X_{d}), \vec{θ} = (θ_{1}, \dots, θ_{d})$ , $\sum_{i = 1}^{d} θ_{i} = 1$ . $(\vec{X} | \vec{Θ} = \vec{θ}) \sim Multinomial (n, θ_{1}, \dots, θ_{d})$ . $P (\vec{X} = \vec{x} | \vec{Θ} = \vec{θ}) = (\binom{n}{x_{1}, \dots, x_{d}}) θ_{1}^{x_{1}} \dots θ_{d}^{x_{d}} 1 {\sum_{i = 1}^{n} x_{i} = n} \prod_{i = 1}^{d} {x_{i} \in {0, \dots, n}} .$

Example (Gaussian)

$X_{1}, \dots, X_{n} \overset{i . i . d}{\sim} N (μ, σ^{2})$ .

$μ$ unknown, $σ^{2}$ known.
$\vec{X} = (X_{1}, \dots, X_{n})$ . Random variable $M = μ$ . $f_{\vec{X} | M = μ} (\vec{x}) \propto \exp {- \frac{1}{2 σ^{2}} \sum_{i = 1}^{n} (x_{i} - μ)^{2}} .$
Conjugate prior $M \sim N (μ_{0}, σ_{0}^{2})$ . $f_{M} (μ) \propto \exp {- \frac{1}{2 σ_{0}^{2}} (μ - μ_{0}^{2})} .$

\begin{aligned} f_{M | \vec{X} = x} (μ) & \propto f_{\vec{X} | M = μ} (\vec{x}) f_{M} (μ) \\ \propto \exp {- \frac{1}{2 σ^{2}} \sum_{i = 1}^{n} (x_{i} - μ)^{2} - \frac{1}{2 σ_{0}^{2}} (μ - μ_{0})^{2}} \\ \propto \exp {- \frac{1}{2 σ_{0}^{2}} (μ - μ_{n})^{2}}, \end{aligned}

where $\begin{aligned} μ_{n} = (\frac{σ^{2}}{n σ_{0}^{2} + σ^{2}}) μ_{0} + (\frac{n σ_{0}^{2}}{n σ_{0}^{2} + σ^{2}}) \overset{\frac{1}{n} \sum_{i = 1}^{n} X_{i}}{\overset{⏞}{μ_{ML}}}, \\ \frac{1}{σ_{n}^{2}} = \frac{1}{σ_{0}^{2}} + \frac{n}{σ^{2}} . \end{aligned}$
(Precision = prior precision + data precision)

$μ_{n} \to μ_{ML}$ as $n \to \infty$ .

Precisions are additive.

Precision gets large as sample size gets large.

For a finite $n$ , if $σ_{0}^{2} \to \infty$ , then $μ_{n} \to μ_{ML}$ and $σ_{n}^{2} \to \frac{σ^{2}}{n}$ .

$μ$ known, $σ^{2}$ unknown.
Put a prior on precision $Λ = \frac{1}{σ^{2}}$ . Then $f_{\vec{X} | Λ = λ} (\vec{x}) = {(\frac{λ}{2 π})}^{\frac{n}{2}} \exp {- \frac{λ}{2} \sum_{i = 1}^{n} (x_{i} - μ)^{2}} .$ Conjugate prior $Λ \sim Gamma (α_{0}, β_{0})$ : $\begin{aligned} f_{Λ} (λ) & = \frac{β_{0}^{α_{0}}}{Γ (α_{0})} λ^{α_{0} - 1} e^{- β_{0} λ} . \\ f_{Λ | \vec{X} = \vec{x}} (λ) & \propto f_{\vec{X} | Λ = λ} (\vec{x}) f_{Λ} (λ) \\ \propto λ^{α_{0} + \frac{n}{2} - 1} \exp {- λ [β_{0} + \frac{1}{2} \sum_{i = 1}^{n} (x_{i} - μ)^{2}]}, \end{aligned}$ $σ_{ML}^{2} = \frac{1}{n} \sum_{i = 1}^{n} (x_{i} - μ)^{2}$ . Then $(Λ | \vec{X} = \vec{x}) \sim Gamma (α_{n}, β_{n})$ . $α_{n} = α_{0} + \frac{n}{2}, β_{n} = β_{0} + \frac{n}{2} σ_{ML}^{2}$ .

Both $μ, σ^{2}$ unknown. $f_{\vec{X} | M = μ, Λ = λ} (\vec{x}) \propto {[λ^{\frac{1}{2}} e^{- \frac{λ μ^{2}}{2}}]}^{n} \exp {λ μ \sum_{i = 1}^{n} x_{i} - \frac{λ}{2} \sum_{i = 1}^{n} x_{i}^{2}} .$ $f_{M, Λ} (μ, λ) = \underset{N (μ_{0}, \frac{1}{c λ})}{\underset{⏟}{f_{M | Λ = λ} (μ)}} \underset{Gamma (α, β)}{\underset{⏟}{f_{Λ} (λ)}},$ where $μ_{0} = \frac{a}{c}, α = 1 + \frac{c}{2}, β = b - \frac{a^{2}}{2 c}, a, b, c > 0.$

2 Model Selection

Double Exponential/Laplace

$X \sim Laplace (μ, β), β > 0$ . $f_{X} (x) = \frac{1}{2 β} \exp (- \frac{| x - μ |}{β}) .$ $E [X] = μ, Var (X) = 2 β^{2}$ .

$Θ \sim Bernoulli (\frac{1}{2})$ . Consider Model 0 vs. Model 1.
Prior odds: $\frac{P (Θ = 0)}{P (Θ = 1)}$ .
$X_{1}, \dots, X_{n} | Θ = 0 \overset{i . i . d}{\sim} N (0, 1)$ , p.d.f. $f_{0} (x) = \frac{1}{\sqrt{2 π}} e^{- \frac{x^{2}}{2}}$ .
$X_{1}, \dots, X_{n} | Θ = 1 \overset{i . i . d}{\sim} Laplace (0, \sqrt{\frac{π}{2}})$ , p.d.f. $f_{1} (x) = \frac{1}{\sqrt{2 π}} e^{- | x | \sqrt{\frac{2}{π}}}$ .
Bayes Factor: $\frac{f_{\vec{X} | Θ = 0} (\vec{x})}{f_{\vec{X} | Θ = 1} (\vec{x})}$ .
Posterior odds: $BF \times Prior odds$ .

Now suppose

\begin{aligned} X_{1}, \dots, X_{n} |_{Θ = 0} \overset{i . i . d}{\sim} N (0, α^{2}), α > 0 unknown . \\ X_{1}, \dots, X_{n} |_{Θ = 1} \overset{i . i . d}{\sim} Laplace (0, β), β > 0 unknown . \end{aligned}

Put priors on $α, β$ and get RV: $A, B$ .

For example, $\begin{array}{r} \log A | Θ = 0 \sim Uniform (- c, c), \\ \log B | Θ = 1 \sim Uniform (- c, c) . \end{array}$

f_{\vec{X} | Θ = 0} (\vec{x}) = \int_{0}^{+ \infty} f_{\vec{X} | Θ = 0, A = α} (\vec{x}) f_{A | Θ = 0} (α) d α .

$Z = \log A, A = T (Z) = e^{Z}$ . $\begin{aligned} f_{A | Θ = 0} (α) = & f_{\log A | Θ = 0} (\log α) | \frac{d}{d α} \log α | \\ = & \frac{1}{α} f_{\log A | Θ = 0} (\log α) = \frac{1 {- c < \log α < c}}{2 c α}, \\ f_{\vec{X} | Θ = 1} (\vec{x}) = & \int_{0}^{\infty} f_{\vec{X} | Θ = 1, B = β} (\vec{x}) f_{B | Θ = 1} (β) d β . \\ f_{B | Θ = 1} (β) = & \frac{1 {- c < \log β < c}}{2 c β}, \\ BF = & \frac{f_{\vec{X} | Θ = 0} (\vec{x})}{f_{\vec{X} | Θ = 1} (\vec{x})} . \end{aligned}$
( $c$ cancels out in the Bayes Factor.)

1 Bayesian Inference

(X|Θ=θ)∼Binomial(n,θ). Θ∼Beta(α,β), (Θ|X=x)∼Beta(α+x,β+n−x). ThenP(X=x|Θ=θ)=(nx)θx(1−θ)n−x1{x∈{0,1,⋯,n}}. ThenfΘ|X=x(θ)∝P(X=x|Θ=θ)fΘ(θ).If fΘ(θ)∝θα−1(1−θ)β−1, thenfΘ|X=x(θ)∝θα+x−1(1−θ)β+n−x−1.

2 Model Selection